Un Critère d'Évaluation pour la Construction de Variables à base d'Itemsets pour l'Apprentissage Supervisé Multi-Tables

نویسندگان

  • Dhafer Lahbib
  • Marc Boullé
  • Dominique Laurent
چکیده

Résumé. Dans le contexte de la fouille de données multi-tables, les données sont représentées sous un format relationnel dans lequel les individus de la table cible sont potentiellement liés à plusieurs enregistrements dans des tables secondaires en relation un-à-plusieurs. Dans cet article, nous proposons un Framework basé sur des itemsets pour la construction de variables à partir des tables secondaires. L’informativité de ces nouvelles variables est évaluée dans le cadre de la classification supervisée au moyen d’un critère régularisé qui vise à éviter le surapprentissage. Pour ce faire, nous introduisons un espace de modèles basés sur des itemsets dans la table secondaire ainsi qu’une estimation de la densité conditionnelle des variables construites correspondantes. Une distribution a priori est définie sur cet espace de modèles, pour obtenir ainsi un critère sans paramètres permettant d’évaluer la pertinence des variables construites. Des expérimentations préliminaires montrent la pertinence de l’approche.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Prétraitement Supervisé des Variables Numériques pour la Fouille de Données Multi-Tables

Résumé. Le prétraitement des variables numériques dans le contexte de la fouille de données multi-tables diffère de celui des données classiques individuvariable. La difficulté vient principalement des relations un-à-plusieurs où les individus de la table cible sont potentiellement associés à plusieurs enregistrements dans des tables secondaires. Dans cet article, nous décrivons une méthode de ...

متن کامل

Sélection des variables informatives pour l'apprentissage supervisé multi-tables

Résumé. Dans la fouille de données multi-tables, les données sont représentées sous un format relationnel dans lequel les individus de la table cible sont potentiellement associés à plusieurs enregistrements dans des tables secondaires en relation un-à-plusieurs. La plupart des approches existantes opèrent en transformant la représentation multi-tables, notamment par mise à plat. Par conséquent...

متن کامل

Khiops: outil d'apprentissage supervisé automatique pour la fouille de grandes bases de données multi-tables

Résumé. Khiops est un outil d’apprentissage supervisé automatique pour la fouille de grandes bases de données multi-tables. L’importance prédictive des variables est évaluée au moyen de modèles de discrétisation dans le cas numérique et de groupement de valeurs dans le cas catégoriel. Dans le cas d’une base multi-tables, par exemple des clients avec leurs achats, une table d’analyse individus ×...

متن کامل

Vers une Automatisation de la Construction de Variables pour la Classification Supervisée

Résumé. Dans cet article, nous proposons un cadre visant à automatiser la construction de variables pour l’apprentissage supervisé, en particulier dans le cadre multi-tables. La connaissance du domaine est spécifiée d’une part en structurant les données en variables, tables et liens entre tables, d’autre part en choisissant des règles de construction de variables. L’espace de construction de va...

متن کامل

Sélection de variables non supervisée sous contraintes hiérarchiques

Résumé. La sélection des variables a un rôle très important dans la fouille de données lorsqu’un grand nombre de variables est disponible. Ainsi, certaines variables peuvent être peu significatives, corrélées ou non pertinentes. Une méthode de sélection a pour objectif de mesurer la pertinence d’un ensemble utilisant principalement un critère d’évaluation. Nous présentons dans cet article un cr...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2013